基于性能势的智能体学习与规划方法研究

基于性能势的智能体学习与规划方法研究

作者:师大云端图书馆 时间:2020-06-25 分类:参考文献 喜欢:1963
师大云端图书馆

【摘要】强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优化算法。然而,近年来随着人工智能应用领域的扩展,求解具有不确定性的大规模规划问题成为了人工智能理论发展的难点之一。针对智能体决策问题研究中的“维数灾难”,本文提出了一种结合启发式搜索的学习方法,并通过RoboCup机器人足球2D仿真平台,分析该算法的模型及其有效性。本文主要的工作如下:●首先,对强化学习、性能势理论及启发式搜索方法进行了基本介绍,对它们的发展状况做了阐述,并分析在求解问题过程中各自的优势及缺点,同时说明了这些方法在机器人足球中的研究意义。●针对强化学习和性能势理论在求解大规模规划问题中求解过程不稳定和收敛速度过慢的缺点,本文提出了一个新的算法——基于性能势的A*平均强化学习算法。它结合性能势理论与启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。最后通过强化学习标准测试工具箱中的Grid-World实验场景对算法的有效性进行了测试和分析。●本文基于RoboCup机器人足球2D仿真平台中通过简化的机器人足球领域——keepaway,根据Option理论设计了智能体的动作生成器,结合GA*-learning算法并应用到智能体的决策过程中,使球员的个人技术得以提高。综上所述,本文根据强化学习与性能势相关理论,提出了基于性能势的A*平均强化学习算法,并通过一系列实验数据分析,验证了该算法的有效性。同时,我们把本文的研究成果应用到2D仿真队伍GDUT_TiJi的代码设计中,并参加了2013年的中国机器人大赛暨RoboCup公开赛和2013年RoboCup世界杯赛,分别获得了一等奖和第9名。
【作者】黄浩晖;
【导师】陈玮;
【作者基本信息】广东工业大学,控制科学工程,2014,硕士
【关键词】强化学习;马尔卡夫决策过程;性能势理论;启发式搜索;机器人足球;

【参考文献】
[1]田淼.潍坊市检察院刑事赔偿与申诉管理系统的设计与实现[D].山东大学,软件工程(专业学位),2012,硕士.
[2]田挺.移动信息化产品的客户需求分析系统设计与优化[D].兰州大学,工商管理(专业学位),2013,硕士.
[3]高飞.淋洗修复土壤中重金属和多环芳烃复合污染的研究[D].天津大学,化学工程,2013,硕士.
[4]隋志国,孙健.同步广播面临的几个问题[J].广播与电视技术.2002(12)
[5]薛广月,任雪梅.基于任务空间的无标定视觉机械臂自适应跟踪控制[J].控制与决策,2013,07:1060-1064.
[6]王俊梅.基于增长极的小城镇发展规划研究[D].重庆大学,城市规划与设计,2014,硕士.
[7]许龙江.基于木马的计算机远程控制及隐藏技术研究[D].电子科技大学,软件工程(专业学位),2012,硕士.
[8]梁瑶.中日中小企业出口竞争力比较研究[D].辽宁大学,国际贸易学,2012,硕士.
[9]陈颖.开发区土地集约利用评价研究[D].福建农林大学,农业资源利用,2012,硕士.
[10]赵若锦.FDI对山西产业结构的优化作用研究[D].山西财经大学,国际贸易,2014,硕士.
[11]张瑞芳.我国上市公司风险信息披露质量影响因素研究[D].东北大学,会计学,2010,硕士.
[12]肖丽平,童朝南,高润泉.改进的有源电力滤波器滞环电流控制策略[J].电力系统自动化,2014,12:119-124+135.
[13]周建勋.H400离心压缩机的破损原因分析[J].四川冶金.1989(01)
[14]刘冶华.磁性Skyrmion的物理性质和人工操控[D].浙江大学,理论物理,2014,博士.
[15]于思淼.轴向柱塞泵用滑靴流体静动压支撑的特性分析及结构优选[D].哈尔滨工业大学,机械设计及理论,2013,硕士.
[16]赵冠男.海洋非粘结柔性管抗压溃设计与实验验证研究[D].大连理工大学,固体力学,2013,硕士.
[17]张永华.基于灰值腐蚀—膨胀形态学和中值二值化的车牌定位及DSP硬件实现[D].浙江工业大学,控制理论与控制工程,2004,硕士.
[18]蔡春燕.绿色煤炭矿山土地复垦管理评价指标体系研究[D].中国地质大学(北京),资源管理工程,2014,硕士.
[19]白钊.冲压成型过程的有限元仿真及试验研究[D].广东工业大学,机械制造及其自动化,2004,硕士.
[20]周遥,赵翠,毛鑫萍,马永阳.自适应估计算法的系统辨识及DSP实现[J].电声技术,2013,05:54-57.
[21]徐莉莉.近20年来易学研究初探[D].辽宁大学,中国哲学,2012,硕士.
[22]刘潇,朱晓宁.基于KPI的物流服务绩效考核方法研究[J].铁道运输与经济,2014,09:26-31+56.
[23]郭江,罗云,李朝晖.面向电厂维护的机组状态远程监视平台构建[J].水电自动化与大坝监测,2005,01:29-32.
[24]方洪全,曾勇.联机分析挖掘(OLAM)方法在银行信用风险评估中的应用[J].中国软科学,2004,10:126-130+139.
[25]梁绍一,韩德强,韩崇昭.一种基于几何关系的多分类器差异性度量及其在多分类器系统构造中的应用[J].自动化学报,2014,03:449-458.
[26]黄冬晨.秦艽中多种活性组分的多维二阶校正同时定量分析方法研究[D].中南民族大学,药物化学,2013,硕士.
[27]刘燕茹.重庆市青少年女子足球发展现状及对策研究[D].西南大学,体育教育训练学,2013,硕士.
[28]杨颂,任华华,周吉,叶勇.Fe_3O_4@SiO_2@GO纳米复合材料用于亚甲基蓝痕量SERS分析[A].中国光学学会、中国化学会.第十八届全国分子光谱学学术会议论文集[C].中国光学学会、中国化学会:,2014:2.
[29]郑真.浙江省企业外包强度与企业绩效的关系研究[D].浙江工业大学,2008.
[30]郭洪强.内企业家学习的机理与模式研究[D].浙江大学,企业管理,2003,硕士.
[31]张伟鹏.添加Bi对Zr-Sn-Nb系锆合金耐腐蚀性能的影响[D].上海大学,材料学,2013,硕士.
[32]曾桂湘,肖晓忠.建立合理的建筑智能化的期望值[J].智能建筑.2005(10)
[33]王义乐.基于数字化和网络化的感应加热电源控制系统研究[D].河南科技大学,控制理论与控制工程,2013,硕士.
[34]陈晨晨.基于DSP的高速激光位移装置的研究与设计[D].西南交通大学,通信与信息系统,2012,硕士.
[35]姑丽巴合尔.阿不力米提.新疆人口与经济协调发展研究[D].新疆师范大学,人口、资源与环境经济学,2010,硕士.
[36]王冬冬.胜任力模型视角下的大学生“村官”培训方式研究[D].华中师范大学,行政管理,2012,硕士.
[37]李国华,陈丹,郑翔,谢伟淼,程媛.碳化钨/碳化二钨核壳结构纳米复合材料的制备及电催化活性[J].物理化学学报,2012,09:2077-2083.
[38]黄超.基于特征分析的金融时间序列挖掘若干关键问题研究[D].复旦大学,2005.
[39]田忆楠.我国文化创意产业融资工具选择研究[D].东北师范大学,金融学,2012,硕士.
[40]刘毅男,张胜修,张超.基于递归约简的在线自适应最小二乘支持向量回归机[J].控制与决策,2014,01:50-56.
[41]方袁梦梦.决明聚酮合成酶基因的克隆、表达与生物信息学分析[D].西南交通大学,生物化学与分子生物学,2013,硕士.
[42]于博.基于平衡计分卡及绩效棱柱理论的企业信息化绩效评价研究[D].北京交通大学,2013.
[43]王晓宁.幼儿不完美焦虑与抚养方式、抚养者人格倾向的关系研究[D].中国地质大学(北京),应用心理学,2014,硕士.
[44]孙晓杰.革命与阶级、阶层:土改中的乡村社会变迁(1949-1952)[D].华中师范大学,中国近现代史,2013,硕士.
[45]陈韵秋.增译法视角下的顺应[D].南京农业大学,英语笔译,2013,硕士.
[46]曹超群.基于虚拟样机的装载机工作装置的设计[D].大连理工大学,机械设计及理论,2004,硕士.
[47]陶攀.中国企业跨境并购的动因及影响研究[D].对外经济贸易大学,国际贸易学,2014,博士.
[48]姚建国,杨胜春,王珂,杨争林,宋晓芳.智能电网“源—网—荷”互动运行控制概念及研究框架[J].电力系统自动化,2012,21:1-6+12.
[49]林花.《简明新疆历史》(第三、五章)汉英翻译实践报告[D].新疆师范大学,翻译,2013,硕士.
[50]严秀丽.基于生命周期理论的企业社会责任会计信息披露评价研究[D].黑龙江八一农垦大学,会计学,2014,硕士.

相关推荐
更多